执行机器学习任务有5个基本步骤:
准备数据:任何分析过程都取决于所使用数据的质量。我们需要花时间确定数据的质量,然后采取步骤修复诸如丢失数据和异常值处理等问题。
训练模型:这一步涉及选择适当的算法和以模型的形式表示数据。清理后的数据分成两部分——训练和测试(比例取决于先决条件);第一部分(训练数据)用于建立模型。第二部分(测试数据),作为参考。
无论它是任何模型,这5个步骤可以用来构造技术,当我们讨论算法时,你会发现这5个步骤如何出现在每个模型!
预测模型顾名思义是指根据历史数据预测未来的结果。预测模型通常从一开始就得到明确的指示,包括需要学习什么以及需要如何学习。这类学习算法被称为监督学习。 当营销公司试图找出哪些客户可能会流失时,就会使用监督学习。我们还可以用它来预测发生地震、龙卷风等危险事件的可能性,以确定总保险价值。使用的一些算法的例子有:最近邻,Naïve贝叶斯,决策树,回归等。
它用于训练描述性模型,其中没有设定目标,也没有哪个特征比其他特征重要。无监督学习的情况可以是:当零售商希望找出产品组合时,顾客往往会更频繁地购买。此外,在制药行业,无监督学习可以用于预测哪些疾病可能伴随糖尿病发生。这里使用的算法示例是:K-均值聚类算法
这是机器学习的一个例子,训练机器根据业务需求做出特定的决策,唯一的座右铭是最大化效率(性能)。强化学习所涉及的思想是:机器/软件代理会根据其所接触的环境不断地进行自我训练,并将其丰富的知识应用于解决业务问题。这种持续的学习过程确保了较少的人力专业知识的参与,从而节省了大量的时间! 马尔可夫决策过程是RL算法的一个例子。
重要提示:监督学习和强化学习(RL)之间有一个微妙的区别。RL本质上包括通过与环境的交互来学习。RL代理从其过去的经验中学习,而不是像监督学习一样有外部“指导”。 一个很好的例子来理解这两者的区别,那就是自动驾驶汽车。自动驾驶汽车使用强化学习不断做出决定-走哪条路线?开到什么速度?是一些与环境相互作用后决定的问题。监督学习的一个简单表现就是预测从一个地方到另一个地方的车费是多少。
了解机器学习的应用是非常有趣的。谷歌和Facebook广泛使用机器学习向相关用户推送各自的广告。以下是一些应用:
参考资料: